史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格 近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面的中文基准,具有“中文、多样性、高质量、静态、易于评估”五个特性,用于评估语言模型回答简短问题的真实性能力。 中文 豆包 openaio1 2024-11-21 14:08 20